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基于 ROACH2-GPU 集群 相关 事 的 人 研究 
一 一 F-engine 模块 的 设计 与 实现 
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摘要 : 相关 器 在 射电 天 文中 具有 重要 作用 。 以 往 的 相关 器 多 采用 现场 可 编程 门 阵列 
( Field-Programmable Gate Array，FPGCGA) 或 者 特定 用 途 集成 电路 (Application Specific Integrated 
Circuit, ASIC) 技术 ， 开 发 周期 长 ， 不 便 扩 展 和 改进 升级 。 近 年 来 许多 新 研制 的 射电 干涉 阵 相 
关 器 采用 具有 通用 架构 的 现场 可 编程 门 阵列 和 图 形 处 理 器 的 相关 器 。 针 对 暗 能 量 射电 探测 实验 
(天 籁 计划 ) 的 需求 ， 开 发 了 一 套 基 于 可 重 构 开放 架构 计算 硬件 ( Reconfigurable Open Architecture 
Computing Hardware, ROACH2) ) 和 图 形 处 理 器 的 异 构 相关 器 ， 将 相关 器 的 数据 采集 、 快 速 傅 
X vr Z d&( Fast Fourier Transform ，FFT) 等 功能 与 复数 乘 累加 运算 功能 分 开 ， 充 分 利用 了 现场 
可 编程 门 阵 列 的 硬件 资源 和 图 形 处 理 器 的 运算 速度 。 该 相关 器 易于 扩展 ， 且 运算 负载 可 根据 
实际 运算 能 力 进行 不 同 节 点 的 分 配 ， 非常 灵活 。 目 前 已 经 应 用 到 天 籁 计划 项 目 中 。 
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射电 天 文学 中 ， 相 关 需 主要 用 于 将 不 同 天 线 信号 做 相关 运算 得 到 最 终 的 可 见 度 (Visibility) ， 可 见 
度 中 包含 了 相关 所 得 到 的 射电 干涉 信息 ， 可 由 其 重 构 出 天 图 。 相 关 运 算是 信号 处 理 中 常用 的 一 种 
方式 ， 可 描述 两 个 信号 在 不 同时 刻 的 相关 程度 。 处 理 过 程 可 分 为 两 类 ， 一 类 是 先 计算 相关 函数 再 做 复 
数 傅 里 叶 变 换 到 频 域 空间 ， 即 XF 型 相关 。 男 一 类 相反 ， 先 将 信号 转换 到 频 域 空间 ， 然 后 在 频 域 空间 
做 复数 相 乘 ， 即 FX 型 相关 。 由 于 频 域 相 乘 运算 与 时 域 卷 积 等 价 ， 所 以 得 到 的 结果 一 样 。 但 是 随 着 相 
关 路 数 N 的 增加 ，FX 算法 要 比 XF 算法 操作 容易 很 多 ， 这 是 因为 XF 相关 要 求 N^ 步 快 速 傅 里 叶 变 换 
算法 ， 而 FX 只 需要 NN 步 '" 。 当 天 线 阵列 较 大 ， 对 计算 能 力 的 要 求 很 高 时 ， 利 用 FX 相关 器 更 合适 。 

随 着 射电 技术 的 快速 发 展 ， 干 涉 阵列 数目 越 来 越 多 ， 干 涉 阵列 也 越 来 越 大 。 例 如 天 籁 计划 中， 
一 期 已 经 拥有 96 个 双 极 化 阵 元 (192 路 信号 输入 ) ， 而 二 期 阵 元 数 将 增加 到 近 千 个 ; 再 如 国际 合作 的 
平方 千 米 阵列 (Square Kilometer Array, SKA) iH, 一 期 中 频 阵 具有 和 约 200 个 碟 形 天 线 ， 示 来 可 能 扩展 
至 几 千 个 阵 元 。 这 对 相关 器 的 扩展 性 、 可 移植 性 和 运算 能 力 的 要 求 越 来 越 高 。 目 前 国际 上 大 部 分 干涉 
阵 中 相关 融 普 遍 采 用 特定 用 途 集成 电路 和 现场 可 编程 门 阵列 便 件 ， 该 类 相关 需 一 般 针 对 特定 的 干涉 阵 
设计 ,不 便 实现 在 其 他 射电 阵列 的 移植 。 而 且 如 采 未 来 望远镜 进行 升级 ， 对 于 传统 的 现场 可 编程 门 阵 
列 和 特定 用 途 集成 电路 也 相当 困难 ， 往 往 需要 完全 重新 开发 。 

根据 以 上 需求 开发 了 一 套 基 于 ROACH2-GPU WAKA ZEE TH OR AR] FX 型 相关 ， 从 功 
能 上 分 为 F-engine 和 X-engine 两 部 分 。F-engine 主要 将 模拟 信号 通过 模拟 数字 转换 需 ( Analog to Digital 
Converter, ADC) 转化 为 数字 信号 ， 并 进行 快速 傅 里 叶 变 换 。X-engine 的 主要 功能 是 做 同一 频 点 不 同 通 
着 的 复数 相 加 相 乘 运算 得 到 能 见 度 ， 最 终 将 数据 存盘 。 该 套 相 关 天 有 较 好 的 扩展 性 ， 随 着 天 线 阵 扩 
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engine) 基于 由 U. C. Berkerley 的 天 文 信号 处 理 和 电子 学 人 研究 合作 组 ( Collaboration for Astronomy Signal 
Processing and Electronics Research, CASPER ) 研发 的 ROACH2 平台 开发 ， 这 种 平台 在 国际 射电 天 文 界 
应 用 广泛 ， 用 户 较 多 ， 有 较 丰 富 的 开发 库 。 目 前 国际 上 已 经 有 很 多 干涉 阵 末 用 这 个 平台 开发 相关 带 
F-engine, ， 如 探测 黑暗 时 期 的 大 孔径 实验 (Large-Aperture Experiment to Detect the Dark Ages, LEDA), 
探测 再 电离 时 期 的 精确 阵列 (Precision Array for Probing the Epoch of Re-ionization, PAPER) 4 ”相关 器 
F-engine 模型 有 较 好 的 移植 性 ， 对 于 不 同 的 干涉 阵列 ， 所 需要 采样 频率 或 快速 傅 里 时 变换 长 度 不 一 
FÉ, RH ROACH2 开发 平台 可 以 较 方 便 地 将 本 模型 移植 到 其 他 射电 干涉 阵列 中 。 

考虑 到 信号 采集 时 所 用 的 现场 可 编程 门 阵 列 本 号 已 有 相当 的 计算 资源 ， 为 了 充分 利用 这 些 资 源 ， 
同时 又 能 解决 大 规模 阵列 的 高 强度 计算 问题 ， 设 计 中 采用 ROACH2-GPU 异 构 模式 ， 将 采集 、 快 速 傅 
里 叶 变 换 运 算 任务 分 配给 前 端 ROACH2 ， 而 将 算法 简单 但 在 大 规模 阵列 中 计算 强度 大 的 乘 累加 运算 分 
配给 高 性 能 图 形 处 理 锅 ， 从 而 提高 了 相关 需 的 整体 性 能 。 这 种 异 构 的 相关 器 可 以 充分 发 挥 现场 可 编程 
门 阵 列 和 图 形 处 理 器 各 自 的 优势 。 本 文 主要 对 F-engine 设计 的 整体 架构 和 测试 结果 做 进一步 的 介绍 。 


| F-engine 模型 架构 设计 


该 相关 需 的 F-engine 基于 可 重 构 开放 架构 计算 人 硬件 开发 。 天 文 信号 处理 和 电子 学 人 研究 合作 组 提供 
了 基于 ROACH 的 图 形 可 视 化 编程 设计 “。 开 发 库 较 丰 富 ， 提 供 了 如 模拟 数字 转换 器 、10 Gbe 等 硬件 
半 口 映射 模块 ， 还 有 如 逻辑 和 判 新、 快速 傅 里 叶 变 换 等 篆 用 现场 可 编程 门 阵列 算法 模块 ， 底 层 库 模 型 配 
有 详细 说 明 ， 比 较 便 于 搭建 射电 天 文 后 端 如 相关 器 和 频谱 仪 等 " 。ROACH2 是 ROACH 的 改进 版 本 ， 
它 继承 了 ROACH 的 功能 并 在 硬件 上 做 了 提升 。ROACH2 平台 满足 大 部 分 射电 天 文 硬件 开发 的 需求 ， 
在 射电 领域 开发 更 具有 通用 性 。 

F-engine 在 相关 融 中 主要 将 模拟 信号 通过 模拟 数字 转换 种 转 化 为 数字 信号 ， 并 进行 快速 离散 傅 里 
叶 变 换 ， 再 将 数据 从 通道 - 频 点 转换 成 频 点 -通道 的 形式 ， 最 终 将 数据 传输 到 X-engine。 传 统 的 下 - 
engine 设计 集成 程度 很 高 ， 多 路 信和 号 通道 的 F-engine 功能 可 能 在 同一 块 或 几 块 现场 可 编程 门 阵列 中 实 
现 。 这 样 的 F-engine 虽 可 满足 当前 设计 的 需求 ， 但 不 够 灵活 。 为 了 有 更 好 的 扩展 性 ， 开 发 了 更 为 通用 
的 模型 。 在 设计 的 相关 大 F-engine 中 ， 每 块 ROACH2 相当 于 一 个 32 通道 的 子 F-engine， 通 过 网 络 传 
输 将 6 Xt ROACH2 数据 拼接 起 来 ， 最 终 完 成 192 通道 的 F-engine， 且 每 块 ROACH2 运行 相同 的 模型 , 
在 硬件 上 并 无 差别 ， 仅 通过 软件 控制 ， 在 发 送 数据 包 中 加 入 相应 参数 区 别 不 同 ROACH2 发 来 的 数据 。 
这 样 可 以 根据 需求 拼接 出 任 一 32 倍 通道 数 的 相关 融 F-engine， 易 于 扩展 。 

相关 器 F-engine 继承 了 探测 再 电离 时 期 的 精确 阵列 “相关 器 模型 的 整体 架构 ， 由 模拟 数字 转换 
WR. LAYEK (Polyphase Filter Bank, PFB)、 通 道 均 衡 右 (Equalizer) 、 数 据 转 置 (Transpose) 、 以 太 
网 ( Ethernet) 等 主要 模块 构成 。 整 体 架构 功能 如 图 1。 


图 1 F-engine 整体 功能 架构 示意 图 


Fig. 1 Functional framework of the F-engine 
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由 于 X-engine 的 运算 负荷 可 根据 实际 情况 调整 ， 设 计 的 架构 可 以 通过 调节 转 置 和 以 太 网 模块 的 
相应 参数 改变 发 送 数据 包 的 报 文 信息 ， 从 而 适应 后 端 X-engine 运算 节点 数 。 

在 运行 中 ，ROACH2 由 寄存 顺 控 制 。ROACH2 将 现场 可 编程 门 阵列 中 的 寄存 器 映射 到 PowerPC 
中 的 Linux 系统 文件 夹 下 ， 通 过 控制 读 写 模型 中 寄存 带 的 值 控制 模型 的 相应 功能 。ROACH2 还 提供 了 
远程 连接 的 卡 鲁 望远镜 阵列 控制 协议 (Karoo Array Telescope Control Protocol，KATCP ) 功能 ， 通 过 
ROACH2 服务 胡可 以 实现 远程 控制 。 该 接口 协议 提供 了 相应 的 Python, C, Ruby ÆR% i834 Ruby 
编写 了 一 套 F-engine 的 控制 程序 。 


2 F-engine 功能 实现 


2.1 模拟 数字 转换 器 和 快速 傅 里 叶 变 换 功 能 的 实现 

F-engine 数据 采集 的 功能 由 输入 (Input) 模块 实现 。 输 入 模块 内 部 主要 功能 是 模拟 数字 转换 器 采集 。 
在 输入 模块 的 子 模块 中 ， 模 拟 数字 转换 右 模 块 采 用 天 文 信号 处 理 和 电子 学 研究 合作 组 提供 的 模块 库 中 与 硬 
件 对 应 的 ADCI6x250-8 模块 ， 通 过 ROACH 控制 函数 来 控制 采集 卡 。 每 块 ROACH2 配置 2 块 ADC16x250-8 
采集 卡 ， 共 完成 32 路 采集 工作 。 该 模拟 数字 转换 器 采集 完 数据 为 32 路 8 bits 数据 流 输入 下 一 个 模块 。 

为 了 抑制 快速 傅 里 叶 变 换 之 后 的 劳 激 效应， 在 进行 快速 侍 里 叶 变 换 之 前 加 入 了 多 相 滤 波 融 模块 进 
行 多 相 滤 波 。 即 给 每 个 信号 值 乘 以 一 定 的 权重 值 。 

Slv] = Dw[njx[nlje ™, 

其 中 ，$ 是 傅 里 叶 变 换 后 的 光谱 ; L 是 离散 傅 里 叶 变 换 长 度 ; x 是 输入 时 间 序 列 ，w 是 权重 函数 即 窗 
函数 。 加 入 的 权重 窗 函 数 有 汉 宁 窗 、 海 明 窗 等 多 种 形式 ， 可 以 根据 实际 需求 调节 。ROACH2 软件 系统 
中 ， 人 快速 傅 里 叶 变换 功能 在 多 相 滤波 器 模块 中 实现 。 使 用 由 数字 信号 处 理工 具 库 提供 的 多 相 滤 波 器 、 
快速 傅 里 叶 变 换 模 块 。 

系统 的 快速 傅 里 叶 变 换算 法 中 ， 采 用 复数 快速 傅 里 时 变换 运算 ， 即 每 个 快速 傅 里 叶 变 换 模块 运算 
时 将 4 路 信号 分 别 作为 两 个 输入 端的 实 部 、 虚 部 ， 最 终 做 2 路 复数 快速 傅 里 时 变换 运算 产生 2 路 复数 
信和 号。 利用 这 种 算法 可 以 节省 运算 时 间 和 现场 可 编程 门 阵列 资源 ， 每 块 ROACH2 中 只 需 8 个 复数 快 
速 傅 里 叶 变换 模块 就 可 以 满足 前 端 模 拟 数字 转换 融 输 出 32 路 信号 的 傅 里 叶 变换 。 该 模块 输出 时 ， 每 
个 快速 傅 里 叶 变 换 模 块 首先 输出 其 中 一 个 输入 通道 的 频谱 ， 然 后 输出 另 一 输入 通道 的 频谱 ， 频 谱 中 每 
个 频 点 为 36 bis 复数 ， 实 部 、 虚 部 各 为 18 bits, K 2 是 频谱 长 度 为 1 024 频 点 的 一 个 快速 傅 里 叶 变换 
模块 ， 处 理 4 路 输入 信号 ， 图 中 ，pfb2、pfb3 、pfb18 、pfb19 为 快速 傅 里 叶 变 换 模块 的 4 个 输入 信号， 
fft2 、fft3 为 模块 经 过 快速 傅 里 叶 变 换 运算 之 后 的 输出 信号。 

EE. sync [31 — [sync sync out 


fft 1024pt 1 
(a) 
2048 sample points after ADC 
fb2. Complex 1024 frequency points 1024 frequency points 

p2 于 
wis 0 (pf3) (pf2) 
[yip —] — sese ees 

fft3 (pf19) (pf18) 
DEM — — — ....—. | | ë 5 | | 


(b) 
E 2 (a) 其 中 一 个 复数 快速 傅 里 叶 变 换 模块 ; (b) 模块 输入 输出 的 对 应 关系 
Fig.2 (a) A complex-number FFT module; (b) The relation between data-input and data-output of the module 


1 期 /EJRAEAE. 基于 ROACH2-GPU 集群 相关 器 的 研究 


F-engine 模块 的 设计 与 实现 03 


2.2 均衡 句 功 能 实现 以 及 调节 因子 值 范围 的 测定 

在 普通 的 接收 机 中 ， 可 能 对 茶 些 频 点 啊 应 强 而 对 某 些 频 点 啊 应 弦 。 在 有 限 的 动态 范围 下 会 影 响 结 
果 精 度 。 为 了 避免 这 个 问题 ， 在 模型 中 加 入 了 均衡 各 模块 (Equalizer) HITA RE, TEIG TRUST 
为 4 bits 之 前 ， 该 模块 使 快速 传 里 叶 变 换 输出 的 数据 流通 过 一 个 范围 调 布 过 程 ， 每 个 通过 、 每 个 频 点 
加 入 一 个 目 己 的 调节 因子 (EQ coefficient) 简称 EQ 值 。 加 入 这 个 模块 可 以 使 接收 机 的 频谱 啊 应 不 随 频 
率 变 化 ， 即 让 接收 机 对 每 个 通道 、 每 个 频 点 都 有 相同 的 啊 应 。 

均衡 融 模 块 中 EQ 值 的 大 小 对 降低 相关 带 带 内 不 平整 度 很 重要 。 通 过 输入 高 斯 白 噪声 ， 根 据 输出 
通道 和 目 相关 的 均 方 根 有 效 值 确定 调节 因子 值 的 大 小 。 求 均 方 根 公 式 如 下 : 


RMS = 人 
Nint x 2 
HF, Autocorr 是 相关 器 IN 次 积分 后 的 自 相 关 值 : 
Autocorr| chan | = 5 { [Rel(chan, k) x Rel(chan, k)] + [Ima(chan, k) x Ima(chan, k) ]3, 


其 中 ，Nint 表示 N 次 积分 ， 其 值 由 X-engine 设置 所 定 ; kC(1, Mint); chan 为 通道 编号 。 

经 过 均衡 希 输 出 的 每 个 通关 、 每 个 频 点 是 一 个 有 符号 位 的 实 部 、 虚 部 各 为 4 bits 的 复数 ， 所 以 得 
到 的 均 方 根 值 范 围 为 (0~7)。 根 据 天 文 信号 处 理 和 电子 学 人 研究 合作 组 提供 的 经 验 值 ， 当 均 方 根 有 效 值 
控制 在 2 到 3 时 可 以 得 到 比较 好 的 线性 度 , 在 5 到 7 时 线性 度 比 较 差 。 调 试 的 时 候 ， 调 整 每 个 通道 、 
每 个 频 点 的 调节 因子 值 使 得 到 的 自 相关 均 方 根 值 在 2~3 的 范围 内 ， 从 而 得 到 该 通道 、 该 频 点 合适 的 
HATE, KRIER, ， 调 节 接 收 机 的 增益 来 调节 输入 相关 需 中 信号 幅度 的 大 小 。 
2.3 转 置 (Transpose ) 功 能 实现 

每 个 通道 的 数据 流 经 过 一 次 快速 傅 里 叶 变换 运算 后 ， 只 包含 本 通道 的 频谱 ， 而 X-engine 做 相关 运算 
需要 同一 频 点 中 ， 不 同 通道 间 进 行 交 叉 相 乘 ， 所 以 在 F-engine 发 送 数据 前 ， 需 要 将 其 重新 排序 拼接 ， 这 
个 过 程 称 作 转 置 (Transpose 或 者 Corner Turn) 。 转 置 模块 就 是 为 了 完成 这 个 功能 设计 的 。 如 图 3， 以 32 
通道 输入 、128 频 点 为 例 ， 最 初 数据 是 以 通道 - 频 点 的 方式 排列 ， 转 置 后 数据 以 频 点 -通道 的 方式 排列 。 
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图 3 转 置 功能 示意 图 。(a) 转 置 前 数据 流 ; (b) 转 置 后 数据 流 
Fig.3 Functional framework of the Transpose. (a) Original data flow; (b) Transposed data flow 


每 块 ROACH2 配备 了 一 块 万 兆 网 卡 ， 该 网 卡 有 4 个 万 兆 网 口 。 为 了 合理 地 分 配 数据 流 ， 在 转 置 
模块 内 部 设计 了 transpose0 transposel, transpose2, transpose3, 4 个 二 级 子 模块 ， 每 块 处 理 1/4 频谱 
的 转 置 ， 完 成 转 置 后 分 别 送 往 4 个 万 兆 网 口 。 图 4 是 频率 分 辨识 为 0.24 MHz( 快 速 传 里 叶 变 换 长 度 为 
512 频 点 ) 的 转 置 模 块 的 内 部 一 级 结构 。 图 中 每 个 二 级 子 模块 transpose(0~3) 的 “dout” 端 口 输出 的 数 
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据 中 ， 均 包含 1/4 频段 即 128 个 频 点 的 数据 ， 转 置 后 每 个 频 点 包含 ROACH2 板 的 32 路 通道 数据 。 


chan 0 127 


chan 256 383 


chan 384 522 
transpose3 


图 4 转 置 模块 内 部 的 一 级 子 模块 


Fig.4 Structure of the first class sub-module in Transpose 


转 置 二 级 子 模块 结构 如 图 5， 其 中 每 个 二 级 子 模块 具有 同样 的 染 构 。 为 了 将 通道 数据 按 序 写 人数 
据 包 中 ， 并 完成 频 点 -通道 的 转 置 工作 ， 在 每 个 转 置 二 级 子 模块 中 ， 加 入 一 个 Dual-port RAM 模块 ， 
通过 控制 读 写 地 址 的 移 位 对 数据 流 进行 重新 排序 并 完成 转 置 功 能 。 


hdr map 
&» 
ctmode 
dest crc ass 
- E eof in eof out 
ATTIRA 3 eof crc cof 
vin vout — 
valid crc valid 
fid din dout 1 
ou pie data_out 
tid 
<Tbank]] Dual Port RAM 
data in bank 
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input controller 


图 5 转 置 模块 内 部 的 二 级 子 模块 


Fig.S$ Structure of the second class sub-module in Transpose 
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图 6(a) 是 每 个 二 级 子 模块 内 部 Dual-port RAM 模块 写 和 地址 随 现场 可 编程 门 阵列 时 钟 变化 情况 ， 
可 以 看 出 ，Dual-port RAM 模块 的 写 入 地 址 是 从 0 开始 重复 4 次 ， 再 继续 增加 。 这 样 设计 是 因为 有 4 
个 转 置 二 级 子 模块 ， 所 以 重复 4 次 使 得 每 个 模块 选择 性 地 写 人 该 频段 的 数据 。 在 每 个 子 模块 中 的 
input. controller 模块 内 ， 由 上 层 模 块 传人 的 “tid” 信 和 号 数值 来 甄选 是 否 将 “data_in” 端 口传 和 的 数据 与 
入 该 子 模 块 的 随机 存 取 存储 絮 ( Random-Access Memory, RAM) 中 。 如 果 为 该 子 模块 所 需 频段 ，“we” 
信号 为 1,“dout” 端 口传 人 的 数据 部 分 开始 写 和 人 。 
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OAA Figure 1: read write/read 
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(b) 
图 6 Dual Port RAM 读 写 地址 输出 。(a) 写 地 址 输出 随时 间 变 化 ; (b) 读 地 址 随时 间 变 化 
Fig.6 The output of Writing and Reading address of Dual port RAM. 
(a) Writing address varied with time; (b) Reading address varied with time 


FT Bi IE ATH US D a e ETT la CR IL E 
Ex 实际 上 转 置 输入 16 个 通道 中 的 每 个 通 512 frequency paints 512 frequency poihts 
道 数据 流 先 后 包含 了 两 个 输入 通道 的 数据 流 。 图 
6(b) 为 Dual-port RAM 模块 读 地 址 输出 ， 图 中 第 cho 


E EAE T TT f, f 
1 行为 读 地 址 ， 按 照 一 前 一 后 的 交错 地 址 读 出 随 " (ch3) (ch2) 
HLP Ma n ARS, BORER H a S IAE i fs fs < e fi, fo fsi fsi em a fi, fo 
通道 移 到 同一 位 置 ， 使 得 同一 频 点 所 有 通道 重新 
排序 输出 ， 如 图 7。 TEN ES 


每 个 数据 包 大 小 和 其 包头 信息 在 转 置 模块 中 chi fo Toy — Eb. [M E (P 
定义 。 根 据 不 同 的 计数 融和 逻辑 电路 ， 在 转 置 二 
级 子 模块 的 hdr_map 模块 中 加 入 了 目的 IP 信息 


图 7 频 点 拼接 示意 图 
Fig.7 Schematic diagram of data assembly 
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和 数据 包 包 头 信息 。 如 图 5$， 目 的 卫 信息 由 “xid” 信 号 输出 ， 最 后 在 下 一 个 网 络 模块 中 加 入 数据 包 
头 文 件 中 。 而 其 输出 的 数据 包 包 头 信 息 由 “hdr” 输 出 到 一 个 判断 选择 需 中 ， 通 过 output. controller 模 
块 控 制 ， 在 每 个 数据 包 正 式 内 容 前 ， 先 输入 包头 信息 ， 接 着 再 输入 数据 信息 。 

观测 带宽 为 125 MHz， 根 据 观 测 知 要 ,设计 了 快速 传 里 叶 变 换 长 度 为 1024 频 点 和 512 频 点 两 种 
观测 模式 ， 即 每 个 频 点 对 应 频率 分 辨 率 为 0. 12 MHz 和 0. 24 MHz。 快 速 傅 里 叶 变 换 模块 由 数字 信号 处 
理工 具 库 提供 ， 只 需 改 变相 应 参数 即 可 随意 改变 不 同 快速 傅 里 叶 变 换 长 度 。 但 由 于 不 同 快速 傅 里 叶 变 
换 长 度 对 应 不 同 的 频段 发 送 ， 因 此 在 转 置 功 能 实现 中 对 应 不 同 快速 傅 里 叶 变 换 长 度 ， 需 要 在 转 置 模块 
中 改变 数据 包 包 头 信 息 ， 例 如 目的 IP. 需 根据 快速 传 里 叶 变 换 长 度 重 新 划分 频段 发 送 到 相应 X-engine ff. 
元 。 由 于 复数 快速 傅 里 叶 变 换 后 通 着 数 非 按 序 排列 ，Dual-port 随机 存 取 存 储 需 写 人 写 出 地 址 也 要 做 相 
应 改变 。 

2.4 网 络 传输 功能 实现 

在 系统 的 内 部 网 络 中 ， 不同 的 处 理 单元 有 各 自 的 介质 访问 控制 地 址 ( Media Access Control, MAC) 
和 互联 网 协议 地 址 (IP)。 该 模块 利用 转 置 发 出 的 XID 为 每 个 数据 包 加 入 不 同 的 目的 互联 网 协议 地 址 
和 目的 物理 地 址 。 每 个 网 卡 端口 发 送 ROACH2 板 卡 产生 的 1/4 的 频谱 数据 ， 根 据 后 端 X-engine 运算 
需求 ， 叉 将 1/4 频谱 数据 分 为 8 段 后 加 入 目的 互联 网 协议 地 址 打包 通过 万 兆 交 换 机 发 送 到 X-engine, 
即 每 个 数据 包 将 包含 1/32 频谱 的 数据 。 

为 了 节省 万 兆 交 换 机 中 的 网 卡 端口 ， 探 测 再 电离 时 期 的 精确 阵列 (Precision Array for Probing the 
Epoch of Re-ionizatio, PAPER) 模型 采用 了 一 种 循 回 的 模式 ， 将 每 台 ROACH2 中 的 两 块 网 卡其 中 一 块 
作为 补偿 交换 机 网 卡 端口 。 虽 然 每 块 ROACH2 板 只 配备 了 一 块 网 卡 ， 但 是 有 充足 的 交换 机 网 卡 端口 ， 
因此 这 里 没有 采用 PAPER 模型 的 网 络 模型 ， 而 是 将 数据 包 直 接 发 给 了 交换 机 ， 由 交换 机 通过 物理 地 
址 寻 址 发 往 X-engine， 这 种 网 络 模型 比 PAPER 采用 的 模型 更 简便 ， 当 路 数 变 动 时 ， 只 需要 增加 硬件 
设备 将 其 连接 到 交换 机 并 改变 相应 参数 即 可 。 

由 于 数据 量 大 ， 传 输 速 率 高 ， 而 又 不 需要 很 强 的 安全 性 ， 本 模型 网 络 传输 的 数据 包 采 用 用 户 数据 
报 协 议 (User Datagram Protocol, UDP) 。 数 据 包 格 式 如 表 1。 


R1 数据 包 格 式 
Table1 The format of data packet 


Header: UDP Datagram MCNT (6bytes) FID (lbyte) XID (lbyte) 
fÜ InO, In2, In3, In4, ... ... In28, In29, In30, In31 
fl InO, In2, In3, In4, ... ... In28, In29, In30, In31 
f31 InO, In2, In3, In4, ... ... In28, In29, In30, In31 


除了 用 户 数据 报 协 议 报 文 ， 通 过 转 置 模块 ， 在 每 个 数据 包 里 增加 了 包头 部 分 用 于 记录 每 个 数据 包 
的 信息 。 其 中 MCNT 是 一 个 计数 器 ， 用 于 X-engine 识别 收 到 数据 包 发 送 时 刻 ; FID 用 于 区 别 不 同 的 
ROACH2 板 ， 从 而 在 相关 运算 时 换算 出 对 应 通道 的 编号 ; 而 XID 则 是 记录 数据 包 发 送 到 X-engine 的 
编号 。 

数据 包 内 容 按 照 频 点 -通道 的 模式 排列 ， 每 个 数据 包含 有 32 个 频 点 ， 而 每 个 频 点 包含 了 每 块 
ROACH2 所 有 32 个 采样 通道 。 表 中 In0-In31 表示 ROACHO 前 端 32 路 模拟 数字 转换 器 信号 输入 通道 。 
数据 包 内 将 8 个 频 点 放 到 一 个 数据 包 中 发 送 ， 增 加 了 每 个 数据 包 的 大 小 ， 这 样 可 以 充分 利用 万 兆 网 络 
传输 。 每 个 通道 进行 完 频 点 补偿 后 截断 为 8 bits。 为 了 验证 网 络 传输 ， 在 数据 包 最 后 加 了 8 bytes 的 元 
余 校 验 位 ， 这 样 除去 UDP 报 文 内 容 ， 每 个 数据 包 的 大 小 为 

N_f x N_ch x 8 + Header + CRC = 8208 bytes. 


[ll^ 
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而 在 以 太 网 模块 中 ， 每 个 万 兆 网 发 一 个 数据 包 大 约 需要 8 192 ns， 所 以 每 个 万 兆 网 卡 端口 的 传输 速率 
约 为 8 Gbps。 

相关 人 F-engine 还 根据 需求 设计 了 两 种 频率 分 辨 率 模式， 对 应 频率 分 辨 紊 分 别 为 0. 12 MHz 和 
0. 24 MHz。 同 时 还 设计 了 RawData 模型 用 于 检验 模拟 数字 转换 甫 的 正确 性 。 该 相关 需 已 经 应 用 于 天 籁 计 
划一 期 中 3 个 柱 面 天 线 96 个 双 极 化 馈 源 ， 共 192 路 射电 输出 信号 的 干涉 阵列 ， 并 对 其 性 能 进行 了 测试 。 


3 ”相关 盏 的 性 能 测试 


3.1 模拟 数字 转换 器 采样 准确 性 测试 

在 系统 设计 中 包括 了 一 个 原始 数据 (RawData ) 模 式 ， 可 直接 将 模拟 数字 转换 融 采 集 的 波形 数据 打 
包 通 过 万 兆 网 传 到 高 性 能 计算 机 中 存储 ， 而 不 进行 快速 傅 里 叶 变 换 和 互相 关 等 运算 。 这 一 模式 可 用 于 
今 验 模 拟 数字 转换 器 采样 的 正确 性 。 输 入 一 个 20 MHz 的 正弦 波 给 模拟 数字 转换 器 ， 其 输出 数据 如 图 
8(a) 。 对 上 述 数据 进行 拟 合 ， 算 出 其 频率 为 20. 000 1 MHz， 与 理论 值 基本 一 致 。 
3.2 ”相关 器 输入 输出 线性 度 测 试 

为 了 评估 相关 器 的 输入 输出 线性 范围 ， 对 相关 器 做 了 线性 度 测试 。 用 无 源 的 天 空 作 为 信号 源 ， 通 
过 调整 接收 机 变频 絮 输 入 增益 系数 来 控制 输入 信号 的 幅度 ， 并 输出 不 同 幅 度 下 的 通道 自 相 关 值 ， 画 出 
线性 范围 。 如 图 8(b) ， 在 输入 信号 -12 dbm~6 dbm 范围 内 有 良好 的 线性 度 。 


40 


e * Observe Roach Linearity 
| | — fit 35 


MM 


50 100 150 25 20 a -10 3 0 5 10 
Points with 200MHz sample rate Input Power/dBm 
(a) 
图 8 (a) 模拟 数字 转换 器 拟 合 ; (b) 线性 度 测 定 
Fig.8 (a) Fitting results of ADC ; (b) Linearity determination 
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3.3 高 斯 日 品 声 模拟 观测 

在 相关 融 的 测试 中 ， 将 同 源 信号 输入 不 同 的 通道 ， 并 加 入 延 时 进行 干涉 实验 ， 最 终 计算 观测 值 与 
理论 值 的 误差 。 在 测试 时 ， 以 模拟 白 噪 声 替代 真实 信号 输入 。 输 入 两 路 信号 可 表示 为 4e ”与 
4e 0 ， 其 中 ,7 是 两 面 天 线 所 接收 到 信号 的 延迟 。 

相关 相 乘 后 的 能 见 度 为 


V = Ae CTO Agi 一 pum 


其 相位 为 $ -2mwrf. 
如 果 时 延 7 是 固定 的 ， 则 相位 随 频率 /单调 递增 ， 斜 率 为 上 = 2mrr。 实 际 上 相位 随 频率 在 -T 到 m 之 间 
周期 变化 。 

用 不 同 的 噪声 源 进 行 了 两 个 实验 :实验 一 :噪声 源 采 用 ROACH 产生 的 模拟 数字 噪声 替代 模拟 
数字 转换 器 采样 直接 输入 后 端 。 利 用 现场 可 编程 门 阵列 中 的 时 延 模块 产生 延 时 模拟 干涉 阵 输入 信号 。 


o3 天 文 研究 与 技术 14 d 


其 相位 变化 如 图 9(a)。 加 入 2.5x10^s 的 时 延 ， 理 论 上 相位 随 频率 变化 斜率 为 
k-2mr-22xmx2.5x10?*21.571 x 10 "rad/Hz . 
观测 得 出 的 变化 率 拟 合 值 为 1. 561x10-rad/Hz， 误 差 为 0.6% 。 变 化 率 拟 合 如 图 9(b) 。 
实验 二 : 用 噪声 发 生 需 产生 真实 噪声 输入 模拟 数字 转换 器 。 利 用 噪声 源 到 模拟 数字 转换 磊 之 间 射 
频 线 长 度 差 产 生 时 延 模拟 干涉 阵 输入 信号 。 采 用 射频 线 长 差 为 7.$m， 测 得 的 信号 在 射频 线 中 传播 速 
度 约 为 0.7 倍 光 速 ， 该 值 在 合理 范围 内 。 
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图 9 (a) 加 入 时 延 和 模拟 嗓 声 后 相关 器 输出 两 路 信号 的 干涉 相位 图 ; 
(b) 某 时 刻 相 位 随 频 率 变化 的 观测 和 拟 合 图 
Fig.9 (a) Interfere phase of two signals varied with time and frequency after adding simulation 


noise and time delay; (b) An output of phase slope and its fitting result 


3.4 射电 源 观测 测试 

使 用 相关 需 结 合 2 面 天 线 和 接收 机 等 设备 对 太阳 ， Cygnus A 射电 源 进 行 了 和 干涉 观测 ， 通 过 离线 成 
图 可 以 明显 看 到 由 射电 源 运动 引起 的 干涉 振幅 幅度 的 变化 和 相位 条 纹 的 变化 。 还 利用 男 一 套 由 中 国 科 
学 院 自动 化 所 开发 的 相对 成 熟 的 相关 器 同时 对 Cygnus A 进行 观测 ， 将 得 到 的 数据 进行 比较 ， 结 果 基 
本 吻合 ， 详 情 参见 文 [7] 。 


4 总 f 


KEKE F-engine 模型 实现 了 数据 采集 、 快 速 傅 里 叶 变 换 、 转 置 、 网 络 分 发 等 功能 。 在 此 基础 
上 ,还 加 入 了 Raw Data 模型 及 其 控制 程序 ， 可 将 采集 的 数据 直接 存盘 ， 方便 检查 模拟 数字 转换 需 的 
正确 性 。 相 关 器 易于 根据 通道 数 扩展 ， 对 于 干涉 阵列 增加 ， 无 需 开 发 新 的 模型 ， 只 需要 改变 相应 参数 
即 可 。 

对 于 运算 精度 要 求 不 断 提 高 F-engine 的 运算 负荷 将 增 大 。 但 随 着 CUDA 编程 的 日 益 完 善 ， 将 来 
可 以 通过 网 形 处 理 器 并 行 运算 完成 快速 傅 里 时 变换 ， 未 来 的 相关 需 可 将 F-engine 中 的 快速 伟 里 叶 变换 
移交 到 图 形 处 理 帮 后 端 进行 ， 而 ROACH 只 作为 采集 卡 和 网 络 分 发 的 工具 。ROACH2-CPU 这 种 架构 
的 相关 器 已 经 慢 慢 被 越 来 越 多 的 天 文 技术 人 员 接 受 ， 它 的 易 扩 展 、 易 开发 的 优势 为 射电 天 文 的 发 展 增 
加 了 新 的 活力 。 


参考 文献 : 


[1] | Thompson A R, Moran J M, Swenson Jr G W. Interferometry and synthesis in radio astronomy 
[ M]. New York: John Wiley & Sons, 1986. 


1 期 牛 晨 辉 等 : 基于 ROACH2-GPU 集群 相关 需 的 研究 一 一 F-engine 模块 的 设计 与 实现 69 
[2] | Harris C. A parallel model for the heterogeneous computation of radio astronomy signal correlation 


| D]. Australia; the University of Western Australia, 2009. 

[3] ŽE. 瞳 能 量 的 射电 探测 天 籁 计划 简介 [JI]. 中 国 科学 : 物理 学 力学 天 文学 , 2011, 41 
(12) : 1358-1366. 
Chen Xuelei. Radio detection of dark energy-Tianlai project [J]. Scientia Sinica; Physica, the 
Mechanica & Astronomica, 2011, 41(12) : 1358-1366. 

[4] Parsons A R, Backer D C, Bradley R F, et al. The precision array for probing the epoch of 
reionization; 8 station results |J]. Astronomical Journal, 2009, 139(4) : 1468-1480. 

[5] A, Fk, KIA, F. 基于 ROACH 的 微波 全 息 法 相关 机 设计 [J]. 天 文 研究 与 技术 ， 
2015, 12(1) : 54-62. 
Pei Xin, Li Jian, Chen Maozheng, et al. A design of a digital correlator for microwave holography 
based on the ROACH platform [J]. Astronomical Research & Technology, 2015, 12(1) : 54- 
62. 

[6] RKE, FUR, KIA, 等 . 相干 消 色 散 脉 冲 星 观测 系统 的 研究 [J|]. 天 文 研究 与 技术 ， 
2015, 12(4) : 480-486. 
Xu Yonghua, Li Jiyun, Zhang Yingqian, et al. A study of a pulsar observation system using the 
coherent de-dispersion technique | J|. Astronomical Research & Technology, 2015, 12(4) : 480- 
486. 

[7] | EUR, HRA, m ER, 等 . 基于 ROACH2-CPU 的 集群 相关 器 研究 一 一 X-engine 模型 的 
设计 与 实现 [J]. 天 文 研究 与 技术 , 2016, 13(2) : 219-227. 
Wang Qunxiong, Niu Chenhui, Tian Haijun, et al. A research on the ROACH2-GPU-cluster- 
based correlator-the design and implementation of an X-engine model | J |]. Astronomical 


Research & Technology, 2016, 13(2) : 219-227. 


Research on the ROACH2-GPU-Cluster-Based Correlator 


—— Design and Implementation of an F-engine Model 
Niu Chenhui"^, Wang Qunxiong'^, Zheng Xiaoping’, Tian Haijun'", 
Wu Fengquan! , Li Jixia , Chen Xuelei' , Hao Jie* 
(1. National Astronomical Observatories, Chinese Academy of Sciences, Beijing 100012, China, Email; hjtian lamost.org ; 
2. Central China Normal University, Wuhan 430079, China; 3. China Three Gorges University, Yichang 443002, China; 


4. Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China) 


Abstract: Correlator plays an important role in radio interferometry astronomy. Traditional correlator is 
achieved with FPGA or ASIC. It calls for long development cycle and its flexibility is unsatisfactory. At present, 
more and more radio astronomy arrays adopt generic architecture correlator with FPGA system and GPU. In order 
to meet the demands of the ' Tianlai' project, we developed a new correlator based on ROACH2 and GPU 
cluster. We divided the workflow of the correlator into two parts: we let the high performance GPU undertake 
the CMAC (conjugate multiply and accumulate) and only left the ADC and FFT for the F-engine. This 
correlator has high flexibility and it is easy to control. It has been applied to the Tianlai project. 

Key words: Correlator; F-engine; ROACH2; Tianlai project 


